智能论文笔记

Vision Transformers for Action Recognition: A Survey

Anwaar Ulhaq , Naveed Akhtar , Ganna Pogrebna , Ajmal Mian

分类：计算机视觉 | 人工智能

2022-09-13

视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中，由于其广泛的应用，人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献，同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用，我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构，方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下，我们探讨了编码时空数据，降低维度降低，框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化，以处理更长的序列，通常通过减少单个注意操作中的令牌数量。此外，我们还研究了不同的网络学习策略，例如自我监督和零局学习，以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后，它提供了有关该研究方向的挑战，前景和未来途径的讨论。

translated by 谷歌翻译

随着沉浸式视频序列的快速增长，实现无缝和高质量的压缩3D含量更为关键。 MPEG最近开发了一种基于视频的点云压缩（V-PCC），用于动态点云编码。但是，使用V-PCC进行重建的点云会遭受不同的工件的影响，包括在应用现有视频编码技术之前在预处理过程中丢失数据，例如高效视频编码（HEVC）。贴片世代和2D投影中3D的自封点是使用V-PCC丢失数据的主要原因。本文提出了一种新方法，将重叠切片作为贴片生成的替代方法，以减少生成的贴片数量和丢失的数据量。在提出的方法中，整个点云已根据自锁定点的数量将整个点云分为横截面，以便在斑块生成过程和投影中可以最大程度地减少数据丢失。为此，考虑了可变数量的层，部分重叠以保留自锁定点。所提出的方法的额外优势是减少位置的需求并使用切片底座编码几何数据。实验结果表明，与标准的V-PCC方法相比，提出的方法比标准V-PCC方法更灵活，改善了率延伸性能，并且与标准V-PCC方法相比，数据丢失显着降低。

translated by 谷歌翻译

Quantitative cephalometric analysis is the most widely used clinical and research tool in modern orthodontics. Accurate localization of cephalometric landmarks enables the quantification and classification of anatomical abnormalities, however, the traditional manual way of marking these landmarks is a very tedious job. Endeavours have constantly been made to develop automated cephalometric landmark detection systems but they are inadequate for orthodontic applications. The fundamental reason for this is that the amount of publicly available datasets as well as the images provided for training in these datasets are insufficient for an AI model to perform well. To facilitate the development of robust AI solutions for morphometric analysis, we organise the CEPHA29 Automatic Cephalometric Landmark Detection Challenge in conjunction with IEEE International Symposium on Biomedical Imaging (ISBI 2023). In this context, we provide the largest known publicly available dataset, consisting of 1000 cephalometric X-ray images. We hope that our challenge will not only derive forward research and innovation in automatic cephalometric landmark identification but will also signal the beginning of a new era in the discipline.

translated by 谷歌翻译

当涉及数码相机中的图像压缩时，传统上是在压缩之前执行的。但是，在某些应用中，可能需要进行图像噪声来证明图像的可信度，例如法院证据和图像取证。这意味着除干净的图像本身外，还需要编码噪声本身。在本文中，我们提出了一个基于学习的图像压缩框架，在该框架中共同执行图像denoising和压缩。图像编解码器的潜在空间以可扩展的方式组织，以便可以从潜在空间的子集（基础层）中解码清洁图像，而嘈杂的图像则以较高的速率从完整的潜在空间解码。使用潜在空间的子集作为剥落图像，可以以较低的速率进行deno。除了提供嘈杂的输入图像的可扩展表示外，用压缩共同执行deno，这是直观的意义，因为噪声很难压缩；因此，可压缩性是可能有助于区分信号的标准之一。将提出的编解码器与已建立的压缩和降解基准进行了比较，并且与最先进的编解码器和最先进的Denoiser的级联组合相比，实验显示了大量的比特率节省。

translated by 谷歌翻译